Proč Andrej Karpathy nevěří v RL pro trénink AI - bývalý zaměstnanec OpenAI

Andrej Karpathy, bývalý výzkumník z Tesly a OpenAI, se na platformě X podělil o svůj dlouhodobý skepticismus vůči učení s posilováním (reinforcement learning, RL) jako základní metodě pro trénink velkých jazykových modelů (LLM). V příspěvku popisuje, že funkce odměn v RL jsou "super sus" – tedy velmi nespolehlivé, snadno manipulovatelné a nevhodné pro výuku skutečných intelektuálních dovedností řešení problémů. Tento postoj je v rozporu s mnoha velkými hráči jako OpenAI, kteří vidí RL jako škálovatelný přístup pro nové úkoly, přestože čistě předtrénované LLM zdánlivě dosáhly svého vrcholu.

V článku na webu The Decoder, se Karpathyho názory rozvádějí do detailů. Podle něj RL funguje nejlépe, když existuje jasná správná nebo špatná odpověď, protože model dostává pozitivní zpětnou vazbu za krok za krokem řešení problémů. To pomáhá LLM rozkládat úkoly na logické kroky a činí jejich uvažování transparentnějším. Nicméně Karpathy upozorňuje, že pro složitější kognitivní úkoly, jako je intelektuální řešení problémů, jsou tyto funkce odměn nedostatečné a snadno se dají obejít.

In era of pretraining, what mattered was internet text. You'd primarily want a large, diverse, high quality collection of internet documents to learn from.

In era of supervised finetuning, it was conversations. Contract workers are hired to create answers for questions, a bit… https://t.co/rR6yYZGgKP
— Andrej Karpathy (@karpathy) August 27, 2025

Karpathy uznává výhody RL, ale volá po změně

Přestože Karpathy kritizuje RL, přiznává, že jemnění modelů pomocí RL je krokem vpřed oproti klasickému dozorovanému jemnění (supervised finetuning, SFT), které pouze napodobuje lidské odpovědi. Podle jeho slov RL vede k propracovanějšímu chování modelů a očekává, že se tato metoda bude dále výrazně rozvíjet. V dalším příspěvku na X zmiňuje, že RL jemnění "bude nadále podstatně růst".

Ale skutečné průlomy podle Karpathyho přijdou až s úplně jinými mechanismy učení. Lidé používají mnohem výkonnější a efektivnější způsoby učení, které "ještě nebyly správně vynalezeny a škálovány". Tento názor ho řadí mezi rostoucí skupinu skeptiků LLM, kteří tvrdí, že další skok v AI vyžaduje nové přístupy. Například navrhuje "učení systémovým promptem" (system prompt learning), kde se učení děje na úrovni tokenů a kontextu, ne změnou vah modelu. Přirovnává to k tomu, co se děje v lidském mozku během spánku, kdy se informace konsolidují a ukládají.

Interaktivní prostředí jako cesta vpřed

Jedním z klíčových návrhů Karpathyho je trénink LLM v interaktivních prostředích – digitálních prostorech, kde modely mohou jednat a vidět důsledky svých akcí. Dřívější fáze tréninku spoléhají na text z internetu pro předtrénink a data otázek a odpovědí pro jemnění, ale interaktivní prostředí poskytují skutečnou zpětnou vazbu na základě reálných rozhodnutí. LLM by tak přestaly jen statisticky napodobovat lidské odpovědi a začaly se učit rozhodovat, testovat volby v kontrolovaných scénářích.

Karpathy zdůrazňuje, že tyto prostředí by sloužily jak pro trénink, tak pro hodnocení. Hlavní výzvou je nyní vytvořit velkou, různorodou a kvalitní sadu takových prostředí, podobně jako textové datasety v minulosti. V srpnu 2024 Karpathy argumentoval, že RL by mohlo být průlomem, pokud by spoléhalo na skutečně objektivní, měřitelné funkce odměn. Kritizoval tehdy standardní učení s posilováním z lidské zpětné vazby (RLHF) jako příliš závislé na lidských preferencích, což označil spíš za "kontrolu nálady" než za reálný cíl.

Srovnání s názory jiných expertů

Karpathyho myšlenky se shodují s voláním po změně paradigmatu od výzkumníků z DeepMind, jako jsou Richard Sutton a David Silver, v jejich eseji "Vítejte v éře zkušeností". Oba tvrdí, že další vlna pokročilé AI nemůže jen kopírovat lidský jazyk nebo úsudky. Místo toho by AI měla být robustnější, kreativnější a adaptabilnější tím, že se učí přímo ze zkušeností a samostatných akcí. Karpathy souhlasí, že současné RL techniky jsou omezené pro abstraktnější uvažování, a volá po učení z vlastních zkušeností místo napodobování.

Takové pohledy jsou stále hlasitější v AI komunitě, kde se hledají alternativy k současným metodám. Například modely uvažování, které silně závisí na RL, pohánějí většinu nedávného humbuku kolem AI, zatímco předtrénované modely jako GPT-4 ukazují malé zisky. Karpathy zůstává optimistický ohledně růstu RL jemnění, ale zdůrazňuje nutnost inovací pro skutečný pokrok.

Kategorie: AI